查看原文
其他

干货 | 语言研究必备的37个常用语料库

爱分享的 语言服务
2024-09-04
点击上方“语言服务” 可以订阅



语言研究必备的常用语料库



编者按:语料库是对某一语用事实进行定量分析的重要工具,可以反映某一用法的分布情况。如果语料库中某一用法的量,大或者比较大,那么否定这一用法就可能不恰当。当然,我们也要注意分辨,有些错误的形式,其语料反而比正确的形式的语料多,这涉及如何辩证使用语料库的问题。
吕叔湘先生在《语文杂记》中说:“通不通是个约定俗成的问题,多数人都这样说,就算是通。”语料库就有助于判断某一用法是否是多数人在说。
在进行语言研究时,可以用北京大学中国语言学研究中心语料库,即常说的北大CCL语料库,也可以用读秀学术搜索(暂算作语料库)。当然,还有很多语料库可供查询使用,并不仅限于此二者。

通用单语语料库

1


国家语委现代汉语通用平衡语料库


该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库。


网站地址:

http://www.aihanyu.org/cncorpus/index.aspx

2


北京语言大学语料库中心BCC语料库


BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。


网站地址:

http://bcc.blcu.edu.cn

3


 清华TH语料库


清华TH语料库于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。


网站地址:

http://www.openslr.org/18


4

北京大学CCL语料库


CCL语料库中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6 亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文学术文献语料库、海外华文网络语料等等。


网站地址:

http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai


5

人民日报标注语料库


该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)。为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库,目前该语料库涵盖了《人民日报》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。


网站地址:

http://corpus.njau.edu.cn/


6

清华汉语树库


该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料。


汉英双语平行语料库


7

中国科学院汉英平行语料库


中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。


8


南京大学双语词典研究中心

英汉双语平行语料库


该语料库的总体规模共约200万对英汉平行句对,英语和汉语词例数高达2亿词次,其素材一方面来源于南京大学双语词典中心拥有自主知识产权的双语辞书标准数据以及英汉双语对照文献,另一方面也面向网络获取了大量的英汉双语平行对语料。南京大学双语词典研究中心还跟商务印书馆联合开发了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英汉语言资料库,该语料库系统于1994年正式开始创建,并于1997年通过验收。

9



清华大学中英平行语料库



清华大学中英平行语料库由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。


网站地址:http://thumt.thunlp.org/


其他汉外平行语料库


10

北京大学计算语言研究所

双语平行语料库


该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。


11

北京外国语大学双语平行语料库


由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。


12

南京农业大学典籍平行语料库


基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库 。


其他特色语料库


13

 汉语中介语语料库汉语



中介语语料库由北京语言大学( 原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。


网站地址:

http://qqk.blcu.edu.cn/#/login


14

HSK动态作文语料库


该语料库收录了1992-2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等) 的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。


网站地址:

http://hsk.blcu.edu.cn/Login


15

 中国传媒大学有声媒体文本语料库


该语料库由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模, 并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4 亿个,并对所有文本进行了自动分词和词性标注。


网站地址:

http://ling.cuc.edu.cn/Raw-Pub/


翻译常用的22个语料库


16

中国特色话语对外翻译标准化术语库



中国特色话语对外翻译标准化术语库是中国外文局、中国翻译研究院主持建设的首个国家级多语种权威专业术语库,是服务国家话语体系建设和中国文化国际交流的基础性工程。项目团队与中国译协、外文社、南开大学、上海交通大学、上海师范大学、华东理工大学、兰州城市学院等机构开展合作,以习近平新时代中国特色社会主义思想术语和中国特色文化术语为主要内容。该术语库平台以语种的多样性、内容的权威性为突出特色,提供中文与英、法、俄、德、意、日、韩、西、阿等多种语言的术语对译查询服务。

以“新兴市场国家”为例,在搜索框搜索后,即显示中文与各语种间的翻译,点击对应的中文术语,即可查看译文来源和例句。


网站地址:

http://210.72.20.108/index/index.jsp


17

中国思想文化术语库


中国思想文化术语是由国务院批准设立的“中华思想文化术语传播工程”(以下简称“工程”)成果,该工程聘请权威专家成立顾问组、专家委员会、学术委员会,制定中华思想文化术语遴选、释义、翻译规则并开展相关工作,同时特邀知名汉学家参与英译文审稿工作。


网站地址:

https://www.chinesethought.cn/phone/


18

中国核心词汇


中国核心语汇是一部多语种网络百科全书,海量收录具备中国特色的热点词条,数百位专家学者潜心解读,多语种权威翻译,致力于让全球网友与语言学习者正确解读中国文化。


网站地址:

https://www.cnkeywords.net/index


19

联合国术语库


联合国多语言术语库(UNTERM)是联合国内部官方多语种术语库,收集的词汇主要源于联合国大会、安全理事会、经济及社会理事会、托管理事会等主要机构日常文件。因此它收集的术语主要和各种全球性议题相关,比如气候变化、民主、难民、反恐、可持续发展目标、非殖民化等主题。该术语库最大亮点是内容独一性和权威性,提供联合国6种工作语言(英、法、俄、汉、阿、西)的术语对应查询服务。用户不仅能查看某个词汇的词义,还能看到这个术语在联合国内部不同机构出现的频率、在不同主题内容中出现的频率等等。想在外交、公共政策、国际关系等这些领域工作的朋友,这个术语库一定会很用帮助。此外备考CATTI考试的同学也可以经常去看看,因为全球性议题的文章经常出现在CATTI考试里。


网站地址:

https://unterm.un.org/UNTERM/portal/welcome


20

术语在线



术语在线(termonline.cn)由全国科学技术名词审定委员会主办,定位为术语知识服务平台,提供术语检索、术语分享、术语纠错、术语收藏、术语征集等功能。本平台聚合了全国名词委会权威发布的审定公布名词数据库、海峡两岸名词数据库和审定预公布数据库累计45万余条规范术语。覆盖基础科学、工程与技术科学、农业科学、医学、人文社会科学、军事科学等各个领域的100余个学科。


网站地址:

http://termonline.cn/index.htm


21

中国规范术语


该数据库是中国知网和全国科学技术名词审定委员会的合作项目,根据名词委历年审定公布并出版的数据制作,供读者免费查询。本库旨在帮助专业工作者规范、正确使用本领域的专业术语,提高专业水平。


网站地址:

http://shuyu.cnki.net/index.aspx


22

语料库


网站地址:

http://yulk.org/



23

Schlumberger Oilfield Glossary: 

The Oilfield Glossary


相当不错的石油专业词典,词条解释言简意赅,缺点是只有英文解释。可用来查证石油相关术语。


网站地址:

https://www.glossary.oilfield.slb.com/


24

医学英语在线翻译词典


LetPub 是ACCDON(美国)旗下为非英语国家科研学者提供优质SCI论文编辑和各类相关服务的专业品牌。LetPub推出的在线翻译词典汇集了最全面的专业医学英语词汇翻译,SCI论文对照,包括中医常用医学名词、传染病学名词、儿科医学名词、内科学专业名词等。


网站地址:

http://www.letpub.com.cn/index.php?page=med_english

25


BCC汉语语料库


BCC汉语语料库,总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。


网站地址:

http://bcc.blcu.edu.cn/

26


美国国家语料库


网站地址:

http://www.anc.org/


27


英国国家语料库


网站地址:

http://www.natcorp.ox.ac.uk/



28

美国当代英语语料库


网站地址:

https://www.english-corpora.org/coca/



29

Linggle


网站地址:

https://www.linggle.com/


30


Corpus Concordance English


网站地址:

https://lextutor.ca/conc/eng/



31

English Corpora


网站地址:

https://www.english-corpora.org/



32

Michigan Corpus


网站地址:

quod.lib.umich.edu/m/micase/


33


WebCorp


网站地址:

https://www.webcorp.org.uk/live/



34

Ludwig


网站地址:

https://ludwig.guru/



35

北京大学中国语言学研究中心


网站地址:

https://ccl.pku.edu.cn:8080/ccl_corpus/



36

北外语料库语言学


网站地址:

https://corpus.bfsu.edu.cn/


37


联合国正式文件系统


网站地址:

https://documents.un.org/prod/ods.nsf/home.xsp




本文来源:出版资源库


#今日话题

你还知道哪些实用的语料库

欢迎留言分享



科研干货


干货 | 新国标《学术论文编写规则》发布(附下载方式)

干货 | 夹用英文的中文文本的标点符号用法(附电子版下载)

干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)

重磅 | 最新版北大核心期刊目录及投稿方式大全(语言学)

重磅 | CSSCI(2021-2022)来源期刊(含扩展版)投稿方式大全(语言学)

干货 | 国际中文教育研究刊物集锦(含刊物简介及投稿方式)

重磅 | 2021版语言学类SSCI期刊名单出炉(附excel版下载)

干货 | 超实用的学术论文英语句式大全(附PDF格式下载)

干货 | 如何快速从全世界语料中找到你想要的句子?

干货 | 北师大学报主编:期刊编辑怎样判断一篇论文写得好不好

干货 | 北大教授分析了124篇不合格硕士学位论文,发现了这些典型问题

干货 | 北大教师抽检16275篇硕士学位论文,发现不合格论文的6个问题

干货 | 从全国“百篇优博”看学位论文选题关键

学苑 | 毛浩然:论文写作与课题申报六问——基于外国语言文学案例

干货 | 毛浩然教授:CSSCI论文写作的九大堵点与转折点(附PPT)

干货 | 研究生第一篇学术论文普遍存在的九个问题

干货 | 研究生学位论文常见的15个失范问题

干货 | 学术论文的六个关键方面,缺少一个都不是好论文!

干货 | 研究生论文写作四步曲

干货 | 博士学位论文创新的十个切入点(附论文写作指南)

干货 | 文科博士写好论文的十条建议

学苑 | 陈平:从现代语言学经典论著看语言学论文的写作与发表

干货 | 论文的写作流程与写作技巧

干货 | 外语教学论文写作与发表

干货 | 论文写作中的语言及相关问题

干货丨论文标准结构及写法规范最全整理

干货 | 人民日报整理:如何写出一篇高质量论文?

干货 | 这个神器可以获取海量资源,写论文做课题必备

干货 | 英语教学及论文写作必备的12个语法检测工具

干货 | 中国知网的这两项功能悄悄更新,造福了万千研究生

干货 | 知网检索系统更新了,这些新功能,你get到了吗?

干货 | 知网技巧:如何在知网查询外文文献

干货丨这30个网站可以免费获取英文电子书和文献资源

干货 | 6本经典英英词典免费电子资源包(内附安装教程)

干货 | 50个常用学术网站及使用指南

干货 | 全球免费数字图书馆资源大全!

干货 | 北京大学CCL语言田野调查及分析系统(附下载链接)

干货 | 全球汉语传播动态数据库正式开放(附网址)

干货 | “了不起的甲骨文”小程序最全攻略

干货 | 推荐收藏!130个学术网站和26个科研工具

干货 | 推荐收藏!20个实用的语言文字检索数据库

干货 | 推荐收藏!40个容易贬义褒用的词语

干货 | 推荐收藏!230个常见错别字词

干货 | 做科研最忌讳什么:以语言学研究为例

干货 | 新华社公布102个禁用词,三思而后言(附word版下载)

干货 | 各大网络平台违禁词盘点(含小红书、B站、抖音、微博、微信等)

干货 | 39条涉台湾宣传用语当注意!

干货 | 全员警惕!期刊投稿常见的诈骗套路及甄别指南

干货 | 超实用!“年度十大语文差错”合集(2012—2021)

干货 | 出错率最高的500个汉字,一不留神就坑到你!

干货 | 这些写过千百遍的字,你确定写对了吗?

干货 | 焖饭、芝麻糊、一塌糊涂……这些易错词你读错了几个?

干货 | 一简对多繁:容易混淆的简体字与繁体字对照

干货 | 香港和台湾用的都是繁体字,却有这么多区别

干货 | 40个冷门姓氏,知道一半就很厉害

干货 | 除了“谢谢”,PPT结尾页还可以说什么?

干货 | 国家语言资源服务平台正式上线

干货 | 三年疫情创造或涉及的246个名词,都在这里了

干货 | 千万别踩论文答辩的这些“雷”!

干货 | 学术菜鸟如何在毕业答辩中杀出一条生路

干货 | 如何书写一份独一无二的学位论文致谢?

干货 | 拖延症+懒癌患者如何愉快写完毕业论文

干货 | 人民日报整理:如何写出一篇高质量论文?

干货 | 论文文献怎样引用才能降低重复率(附免费查重福利)

干货 | 不做“标题党”,语言类公众号推文标题如何出奇出新?


语言服务资源共享



学术资讯分享

学术资源共享

学术交流共进

还有实用干货和更多福利

尽在语言服务资源共享群

欢迎加入


在【语言服务】公众号对话框

回复“资源共享

获取进群方式


语言服务

18万+语言学人已关注

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

投稿交流、商务合作、著作出版

请联系语服君

微信号:yuyanfuwu2020

点击阅读原文

获取更多实用干货


大家都“在看”,就差你啦~
继续滑动看下一个
语言服务
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存